% !Mode:: "TeX:UTF-8"

\chapter{绪论}
\section{研究工作的背景与意义}
纵观人类历史，语言是人类文明发展的载体。语言以及与其对应的文字为人类特有的，用来传递信息的符号系统，是人类与动物在智能方面最具决定性的差异。这里所描述的语言，是指人类发展自然形成的语言，如日语、汉语等。和人类为某种目的创造的语言（比如编程语言）不同，人们通常称其为自然语言。

自然语言处理是计算机科学领域的一个重要方向，它所研究的就是计算机与人类之间使用自然语言交流的理论和方法。众所周知，科技、文学和宗教，人类能够理解的信息几乎都通过自然语言传承和传播。在现代社会，甚至人类的逻辑与思考都是以语言为基础的。由此可见此学科方向的实际意义十分显著，如果计算机能够理解人类自然语言的特殊含义，那么就能让计算机帮助人类完成一些需要大量人力的工作，比如翻译工作，对互联网上的大量自然语言文本进行分析等。而人类操作计算机工作的方式也不再以学习繁杂的、不符合人类习惯的计算机语言为前提。而在研究计算机理解人类语言的过程中，也能增进我们对人类是如何理解语言这里问题的认识。

为能够实现人类与计算机的通信，研究既要完成计算机理解自然语言文本意义的目标，也要完成计算机使用自然语言表达特定的含义的目标。前者称为自然语言理解，后者称为自然语言生成。

中文文本形式上可以看做是由汉字及标点符号组成的字符序列。含义通常由完整的句子表达，而句子是由词组组成的，词组又由单个汉字组成。但无论是任何层次都存在着歧义和多义的情况，举个例子，在某个句子中的词组，可能在另一个句子中含义大相径庭，同时，两个完全不同的句子中两个不同的单词也有可能有相同的含义。这给自然语言理解带来了最直接的困难。但实际上，自然语言通常是不存在歧义的，这时由于我们在交流中，大脑通常会结合特定的上下文和经验，得到准确的含义。如何让计算机获得理解上下文的能力和人类特有的经验便是自然语言理解的主要工作。

现代的自然语言处理工作通常是基于机器学习，通常是统计机器学习。
\section{命名实体的概念以及其地位}
命名实体指的是文本中具有特殊意义的词语、短语。比如专有名词、人名、地名、机构名等，有时也根据需求包括时间、数量等。根据不同的应用场景，命名实体的确切含义则会有所不同。由此可见命名实体通常是一串文本中最基本、最重要的信息元素，是理解文本的基础。

至今，命名实体的研究越来越受到重视。1995年9月举行的MUC-6会议首次定义了“命名实体”这一术语，同时提出了一个新的领域，此领域旨在对英文命名实体的结果进行评测。目光转回国内，863计划中文信息处理与智能人机交互技术评测会议将中文命名实体识别作为分词和词性标注的子任务引入。中文与英文的差距较大，具有特殊性，便与命名实体的开放性和发展性产生了矛盾，导致中文命名实体研究进展较为缓慢。  

\section{初等数学自动类人求解场景下命名实体的概念}
初等数学中，概率和统计在我国数学高考试卷中占据着重要地位，其贴近生活而情景多变，以应用题为主。对于此类问题的计算机自动类人解题充满了挑战性。若将解题过程分为多个过程，最开始的过程便是题目的形式化表征。通俗来讲，是如何才能让计算机理解自然语言编写的题干含义的问题。自然语言和数学语言是存在差距的，而连接他们的桥梁便是问题的表征。问题表征即是挖掘问题中元素和元素间的关系，而这些元素以及元素间的关系将成为计算机自动类人解题过程中用于求解模型的参数。也就是说，我们创造的问题形式化表征生成系统，首先应拥有搜索题目中的元素以及元素之间约束关系的能力。结合上面提到的实体的定义，在这个应用场景下，题目中的元素以及可能的元素约束关系，将是文本中最具有特殊意义也最首要的信息，也就是我们需要的命名实体。
\section{国内外研究现状}
世界命名实体识别领域已经取得很多进展，尤其是英文命名实体的识别技术已经达到了较高的水平，并且已经可以应用于实际生产。和英文相比，中文有很多特殊性：

英文单词单词独立，且专有名词首字母大写，而命名实体多为专有名词；中文词汇没有明显分界，在命名实体识别之前，通常要进行分词，专有名词没有明显特征。显然，最终处理结果受预先分词的效果影响极大。这些都提高了中文命名实体识别工作的难度。

中文单词在不同句子中，通常有更多的歧义。例如，“一切为了人民”和“人民路”，“人民”一词在前一短语中仅为普通名词，而在后者短语中则可看做为地理命名实体。这一特点说明我们无法仅仅利用词库来进行实体的识别。同时，由于中文名词组成极度丰富，任何一个文字都可能出现在某一个名词中，大量的命名实体无法登陆词库。

综上，中文命名实体研究工作在进展落后的情况中同时面临了更多的困难。

国内，中文命名实体的研究中，结合规则和统计方法是常用的方案，即在使用中文本身的构成规则后，再结合一定的统计算法，后者减轻了前者研究的巨大代价，并显著提升了识别的效果。比如潘正高结合N-gram模型和基于隐马尔科夫模型（HMM）\citeup{pan2012guizetongji1}的统计算法制定了特定规则，对人名的识别准确率达到了97\%。何炎祥结合基于条件随机场模型的算法和特定规则\citeup{he2015crfguize}，针对地名和组织名的识别效果较好，F值分别达到了91.61\%和85.74\%。相对于人名、地名的识别来说，中文机构名的识别存在较大的困难，并且研究较少，因此周俊生团队提出了一种新的基于层叠条件随机场模型的中文机构名识别算法\citeup{zhou2006cengdiecrf}，其思想是底层模型进行人名与地名的识别并为高层模型识别复杂机构名工作提供决策支持。

\section{本论文的主要研究内容}
本文首先构想了一定的应用场景，即初等数学中概率与统计题的自动求解引擎场合。并在此应用场景的需要出发，研究了初等数学题的题干结构以及自动求解的可能算法，从此得出本文需要自然语言处理完成的任务，即初等数学的命名实体标注。并迎合此需求需要设计了较为科学的命名实体标注集合。本文使用了概率图模型中条件随机场作为中文命名实体识别任务的预测模型，因此本文自宏观至具体的研究了机器学习，自然语言处理需要完成的任务，并研究了多种概率图模型的区别。在研究了条件随机场的基础上，研究了特征函数的原理，并根据原理和需求制定了特征模板。整篇文章通过训练，测试和统计分析，证明了条件随机场对于初等数学的命名实体标注有较好的效果。


\section{本论文的结构安排}
本文的章节结构安排如下：

第一章，绪论：简单描述了研究工作的背景与意义，通过阐述自然语言在人类社会中的地位说明自然语言处理任务的重要性。同时交代了初等数学自动类人求解场景下命名实体的概念。并交代了国内外相关研究现状。

第二章，相关理论基础：宏观说明了概率模型的概念。并比较了判别式和生成式模型的区别。并由此引出概率图模型的概念。为了准确描述概率图模型，本文用语言描述加数学公式的方法，定义并解释了几种知名的概率图模型：隐马尔科夫模型、马尔科夫随机场和条件随机场。

第三章，初等数学的自动求解场合下命名实体标注研究：首先交代了初等数学中概率与统计题的地位。并提出一个有趣的设想，即：如何构建初等数学概率与统计题自动求解引擎。在此设想出发，深入研究了问题表征相关内容，并在此研究之上设计了标注集合。

第四章，基于CRF的初等数学命名实体识别算法：首先交代了整个本文实验的总体设计。然后详细描述了本文实验的过程，即如何以CRF++工具为核心，通过编译安装CRF++工具，语料的预处理，数据集切分，等步骤，最终得到最终机器识别命名实体的结果。

第五章，实验结果与评测分析：首先对命名实体标注任务中一些常见的概念进行描述，并在这些概念上定义了评测中文命名实体识别系统性能的指标。然后根据实验已经获得的机器标注数据，通过脚本统计出这些指标，并根据指标进行简单的分析。

第六章，全文总结与展望：对整篇论文进行总结，并对今后的研究工作做一定的设想与计划。
